Learning rich skills through temporal abstractions without supervision of external rewards is at the frontier of Reinforcement Learning research. Existing works mainly fall into two distinctive categories: variational and Laplacian-based option discovery. The former maximizes the diversity of the discovered options through a mutual information loss but overlooks coverage of the state space, while the latter focuses on improving the coverage of options by increasing connectivity during exploration, but does not consider diversity. In this paper, we propose a unified framework that quantifies diversity and coverage through a novel use of the Determinantal Point Process (DPP) and enables unsupervised option discovery explicitly optimizing both objectives. Specifically, we define the DPP kernel matrix with the Laplacian spectrum of the state transition graph and use the expected mode number in the trajectories as the objective to capture and enhance both diversity and coverage of the learned options. The proposed option discovery algorithm is extensively evaluated using challenging tasks built with Mujoco and Atari, demonstrating that our proposed algorithm substantially outperforms SOTA baselines from both diversity- and coverage-driven categories. The codes are available at https://github.com/LucasCJYSDL/ODPP.
translated by 谷歌翻译
最近已证明,平均场控制(MFC)是可扩展的工具,可近似解决大规模的多代理增强学习(MARL)问题。但是,这些研究通常仅限于无约束的累积奖励最大化框架。在本文中,我们表明,即使在存在约束的情况下,也可以使用MFC方法近似MARL问题。具体来说,我们证明,一个$ n $ agent的约束MARL问题,以及每个尺寸的尺寸$ | \ Mathcal {x} | $和$ | \ Mathcal {u} | $的状态和操作空间,可以通过与错误相关的约束MFC问题近似,$ e \ triangleq \ Mathcal {o} \ left([\ sqrt {| \ Mathcal {| \ Mathcal {x} |} |}+\ sqrt {| ]/\ sqrt {n} \ right)$。在奖励,成本和状态过渡功能独立于人口的行动分布的特殊情况下,我们证明该错误可以将错误提高到$ e = \ nathcal {o}(\ sqrt {| | \ Mathcal {x x x } |}/\ sqrt {n})$。另外,我们提供了一种基于自然策略梯度的算法,并证明它可以在$ \ Mathcal {o}(e)$的错误中解决受约束的MARL问题,并具有$ \ MATHCAL {O}的样本复杂性(E^{ - e^{ - 6})$。
translated by 谷歌翻译
我们表明,在合作$ n $ n $ agent网络中,可以为代理设计本地可执行的策略,以使所得的平均奖励(值)的折现总和非常接近于计算出的最佳价值(包括非本地)策略。具体而言,我们证明,如果$ | \ MATHCAL {X} |,| \ MATHCAL {U} | $表示状态大小和单个代理的操作空间,那么对于足够小的折现因子,近似错误,则由$ \ MATHCAL {o}(e)$ where $ e \ triangleq \ frac {1} {\ sqrt {n}}} \ left [\ sqrt {\ sqrt {| \ Mathcal {x}} |} |} |} |}+\ sqrt { } |} \ right] $。此外,在一种特殊情况下,奖励和状态过渡功能独立于人口的行动分布,错误将$ \ nathcal {o}(e)$提高到其中$ e \ e \ triangleq \ frac {1} {\ sqrt {\ sqrt {n}} \ sqrt {| \ Mathcal {x} |} $。最后,我们还设计了一种算法来明确构建本地政策。在我们的近似结果的帮助下,我们进一步确定构建的本地策略在$ \ Mathcal {o}(\ max \ {e,\ epsilon \})$最佳策略的距离之内对于任何$ \ epsilon> 0 $,本地策略是$ \ MATHCAL {O}(\ Epsilon^{ - 3})$。
translated by 谷歌翻译
我们考虑了最大化的影响(IM)问题:'如果我们能说服社交网络中的一部分个人采用新产品或创新,目的是触发大量的进一步收养级联我们应该定位吗?正式地,这是在社交网络中选择$ K $种子节点的任务,以使网络中预期的影响节点(在某些影响下传播模型)最大化。在文献中已经广泛研究了这个问题,并提出了几种解决方案方法。但是,大多数基于模拟的方法涉及耗时的蒙特卡洛模拟,以计算种子节点在整个网络中的影响。这限制了这些方法在大型社交网络上的适用性。在本文中,我们有兴趣以时间效率的方式解决影响最大化的问题。我们提出了一种社区意识的分歧和纠纷策略,涉及(i)学习社交网络的固有社区结构,(ii)通过解决每个社区的影响最大化问题,以及(iii)选择最终的影响力来生成候选解决方案。使用新颖的渐进预算计划来自候选解决方案的个人。我们提供有关现实世界社交网络的实验,表明所提出的算法在经验运行时和启发式算法方面优于基于仿真的算法。我们还研究了社区结构对算法性能的影响。我们的实验表明,具有较高模块化的社区结构导致所提出的算法在运行时和影响方面表现更好。
translated by 谷歌翻译
多代理增强学习(MARL)在价值函数分解方法的发展中见证了重大进展。由于单调性,它可以通过最大程度地分解每个代理实用程序来优化联合动作值函数。在本文中,我们表明,在部分可观察到的MARL问题中,代理商对自己的行为的订购可能会对代表功能类施加并发约束(跨不同状态),从而在培训期间造成重大估计错误。我们解决了这一限制,并提出了PAC,PAC是一个新的框架,利用了最佳联合行动选择的反事实预测产生的辅助信息,这可以通过新颖的反事实损失通过新颖的辅助来实现价值功能分解。开发了一种基于变异推理的信息编码方法,以从估计的基线收集和编码反事实预测。为了实现分散的执行,我们还得出了受最大收入MARL框架启发的分级分配的代理策略。我们评估了有关多代理捕食者捕食者和一组Starcraft II微管理任务的PAC。经验结果表明,在所有基准上,PAC对基于最先进的价值和基于策略的多代理增强学习算法的结果得到了改善。
translated by 谷歌翻译
牛顿型方法由于其快速收敛而在联合学习中很受欢迎。尽管如此,由于要求将Hessian信息从客户发送到参数服务器(PS),因此他们遭受了两个主要问题:沟通效率低下和较低的隐私性。在这项工作中,我们介绍了一个名为Fednew的新颖框架,其中无需将Hessian信息从客户传输到PS,因此解决了瓶颈以提高沟通效率。此外,与现有的最新技术相比,Fednew隐藏了梯度信息,并导致具有隐私的方法。 Fednew中的核心小说想法是引入两个级别的框架,并在仅使用一种交替的乘数方法(ADMM)步骤更新逆Hessian级别产品之间,然后使用Newton的方法执行全局模型更新。尽管在每次迭代中只使用一个ADMM通行证来近似逆Hessian梯度产品,但我们开发了一种新型的理论方法来显示Fednew在凸问题上的融合行为。此外,通过利用随机量化,可以显着减少通信开销。使用真实数据集的数值结果显示了与现有方法相比,在通信成本方面,Fednew的优越性。
translated by 谷歌翻译
我们考虑了在连续的状态行为空间中受到约束马尔可夫决策过程(CMDP)的问题,在该空间中,目标是最大程度地提高预期的累积奖励受到某些约束。我们提出了一种新型的保守自然政策梯度原始二算法(C-NPG-PD),以达到零约束违规,同时实现了目标价值函数的最新融合结果。对于一般策略参数化,我们证明了价值函数与全局最佳功能的融合到由于限制性策略类而导致的近似错误。我们甚至从$ \ Mathcal {o}(1/\ epsilon^6)$从$ \ Mathcal {o}(1/\ Epsilon^4)$提高了现有约束NPG-PD算法\ cite {ding2020}的样本复杂性。。据我们所知,这是第一项通过自然政策梯度样式算法建立零约束违规的工作,用于无限的地平线折扣CMDP。我们通过实验评估证明了提出的算法的优点。
translated by 谷歌翻译
本文提出了基于卷积神经网络的自动编码器(CNN-AE),以预测网络拓扑的位置依赖性率和覆盖率。我们训练CNN利用印度,巴西,德国和美国的BS位置数据,并将其性能与基于随机几何(SG)的分析模型进行比较。与最合适的SG模型相比,CNN-AE将覆盖范围和利率预测错误的利润分别提高到$ 40 \%$和$ 25 \%$。作为应用程序,我们提出了低复杂性,可证明是收敛的算法,使用经过训练的CNN-AE可以计算新的BS的位置,这些位置需要在网络中部署,以满足预定的空间异质性能目标。
translated by 谷歌翻译
In recent times, Variational Quantum Circuits (VQC) have been widely adopted to different tasks in machine learning such as Combinatorial Optimization and Supervised Learning. With the growing interest, it is pertinent to study the boundaries of the classical simulation of VQCs to effectively benchmark the algorithms. Classically simulating VQCs can also provide the quantum algorithms with a better initialization reducing the amount of quantum resources needed to train the algorithm. This manuscript proposes an algorithm that compresses the quantum state within a circuit using a tensor ring representation which allows for the implementation of VQC based algorithms on a classical simulator at a fraction of the usual storage and computational complexity. Using the tensor ring approximation of the input quantum state, we propose a method that applies the parametrized unitary operations while retaining the low-rank structure of the tensor ring corresponding to the transformed quantum state, providing an exponential improvement of storage and computational time in the number of qubits and layers. This approximation is used to implement the tensor ring VQC for the task of supervised learning on Iris and MNIST datasets to demonstrate the comparable performance as that of the implementations from classical simulator using Matrix Product States.
translated by 谷歌翻译
已经开发了覆盖选项发现,以通过连接国家过渡图的Fiedler向量提供的嵌入空间中最遥远的状态,以改善具有稀疏奖励信号的单个奖励​​信号的增强学习的探索。但是,这些选项发现方法不能直接扩展到多代理方案,因为关节状态空间随系统中的代理数量而呈指数增长。因此,现有关于在多代理方案中采用选项的研究仍然依赖单代理选项发现,并且未直接发现可以改善代理联合状态空间连通性的联合选项。在本文中,我们表明,确实可以直接计算代理商之间具有协作探索性行为的多代理选项,同时仍然享受易于分解的便利。我们的关键思想是将联合状态空间近似为Kronecker图 - 单个代理的状态过渡图的Kronecker乘积,我们可以使用单个试剂的拉普拉斯谱的“联合状态空间”的Fiedler vector,以此为基础,该图可以直接估计。过渡图。这种分解使我们能够通过鼓励代理连接对应于估计的联合Fiedler载体的最小值或最大值来有效地构建多代理联合选项。基于多代理协作任务的评估表明,在更快的探索和较高的累积奖励方面,提出的算法可以成功识别多代理选项,并显着优于使用单代理选项或没有选项的先前工作。
translated by 谷歌翻译